Dari Pengulangan ke Perhatian: Mengatasi Keterbatasan Pemodelan Berurutan
Pemodelan berurutan tradisional sangat bergantung pada Jaringan Saraf Berulang (RNNs) dan variasi berbasis gerbang mereka (LSTM, GRU). Meskipun revolusioner untuk tugas urutan-ke-urutan awal, arsitektur ini mengalami masalah skalabilitas mendasar saat menangani ketergantungan panjang. Pengenalan mekanisme perhatian memberikan terobosan konseptual penting yang diperlukan untuk melampaui keterbatasan ini dan memungkinkan sistem NLP modern yang sangat efektif.
1. Masalah Ketergantungan Jarak Jauh
Dalam RNN, jalur ketergantungan antara token $t_i$ dan token $t_j$ harus melewati semua langkah antara secara berurutan. Hal ini memaksa sinyal gradien selama pembentukan mundur (backpropagation) untuk terus-menerus dikalikan melalui matriks bobot, menyebabkan penurunan cepat (gradien menghilang) dari sinyal, yang membuat hampir tidak mungkin untuk menyebar informasi bermanfaat atau sinyal kesalahan melintasi jarak jauh dalam urutan. Kompleksitas jalur adalah $O(N)$.
2. Hambatan Konteks Berukuran Tetap
Arsitektur standar pengkode-dekode sebelum adanya perhatian mengharuskan seluruh makna urutan sumber, terlepas dari panjangnya, dipadatkan menjadi satu vektor berdimensi tetap (vektor konteks, $C$). Hambatan ini sangat membatasi kemampuan model untuk mempertahankan semua informasi penting, terutama untuk input yang panjang atau kompleks, menghasilkan kehilangan informasi kritis selama fase dekoding.
Contrast the dependency path length required by:
- Traditional Recurrence (e.g., LSTM)
- Attention Mechanism (Query-Key comparison)
Attention creates a direct, non-sequential connection between any output token $Y_j$ and any input token $X_i$ by calculating a weight based on their vector similarity ($Q_j K_i^T$). The dependency path length is effectively $O(1)$ (a direct look-up), removing the constraint of linear path traversal imposed by recurrence ($O(N)$).